智能论文笔记

Rethinking Knowledge Distillation via Cross-Entropy

Zhendong Yang , Zhe Li , Yuan Gong , Tianke Zhang , Shanshan Lao , Chun Yuan , Yu Li

分类：计算机视觉

2022-08-22

知识蒸馏（KD）已广泛发展并增强了各种任务。经典的KD方法将KD损失添加到原始的跨熵（CE）损失中。我们尝试分解KD损失，以探索其与CE损失的关系。令人惊讶的是，我们发现它可以被视为CE损失和额外损失的组合，其形式与CE损失相同。但是，我们注意到额外的损失迫使学生学习教师绝对概率的相对可能性。此外，这两个概率的总和是不同的，因此很难优化。为了解决这个问题，我们修改了配方并提出分布式损失。此外，我们将教师的目标输出作为软目标，提出软损失。结合软损失和分布式损失，我们提出了新的KD损失（NKD）。此外，我们将学生的目标输出稳定，将其视为无需教师的培训的软目标，并提出了无教师的新KD损失（TF-NKD）。我们的方法在CIFAR-100和Imagenet上实现了最先进的性能。例如，以Resnet-34为老师，我们将Imagenet TOP-1的RESNET18的TOP-1精度从69.90％提高到71.96％。在没有教师的培训中，Mobilenet，Resnet-18和Swintransformer-tiny的培训占70.04％，70.76％和81.48％，分别比基线高0.83％，0.86％和0.30％。该代码可在https://github.com/yzd-v/cls_kd上找到。

translated by 谷歌翻译

Attack on Unfair ToS Clause Detection: A Case Study using Universal Adversarial Triggers

Shanshan Xu , Irina Broda , Rashid Haddad , Marco Negrini , Matthias Grabmair

分类：自然语言处理

2022-11-28

Recent work has demonstrated that natural language processing techniques can support consumer protection by automatically detecting unfair clauses in the Terms of Service (ToS) Agreement. This work demonstrates that transformer-based ToS analysis systems are vulnerable to adversarial attacks. We conduct experiments attacking an unfair-clause detector with universal adversarial triggers. Experiments show that a minor perturbation of the text can considerably reduce the detection performance. Moreover, to measure the detectability of the triggers, we conduct a detailed human evaluation study by collecting both answer accuracy and response time from the participants. The results show that the naturalness of the triggers remains key to tricking readers.

translated by 谷歌翻译

MF2-MVQA: A Multi-stage Feature Fusion method for Medical Visual Question Answering

Shanshan Song , Jiangyun Li , Jing Wang , Yuanxiu Cai , Wenkai Dong

分类：计算机视觉 | 人工智能

2022-11-11

There is a key problem in the medical visual question answering task that how to effectively realize the feature fusion of language and medical images with limited datasets. In order to better utilize multi-scale information of medical images, previous methods directly embed the multi-stage visual feature maps as tokens of same size respectively and fuse them with text representation. However, this will cause the confusion of visual features at different stages. To this end, we propose a simple but powerful multi-stage feature fusion method, MF2-MVQA, which stage-wise fuses multi-level visual features with textual semantics. MF2-MVQA achieves the State-Of-The-Art performance on VQA-Med 2019 and VQA-RAD dataset. The results of visualization also verify that our model outperforms previous work.

translated by 谷歌翻译

RARR: Researching and Revising What Language Models Say, Using Language Models

Luyu Gao , Zhuyun Dai , Panupong Pasupat , Anthony Chen , Arun Tejasvi Chaganty , Yicheng Fan , Vincent Y. Zhao , Ni Lao , Hongrae Lee , Da-Cheng Juan

分类：自然语言处理 | 人工智能 | 机器学习

2022-10-17

Language models (LMs) now excel at many tasks such as few-shot learning, question answering, reasoning, and dialog. However, they sometimes generate unsupported or misleading content. A user cannot easily determine whether their outputs are trustworthy or not, because most LMs do not have any built-in mechanism for attribution to external evidence. To enable attribution while still preserving all the powerful advantages of recent generation models, we propose RARR (Retrofit Attribution using Research and Revision), a system that 1) automatically finds attribution for the output of any text generation model and 2) post-edits the output to fix unsupported content while preserving the original output as much as possible. When applied to the output of several state-of-the-art LMs on a diverse set of generation tasks, we find that RARR significantly improves attribution while otherwise preserving the original input to a much greater degree than previously explored edit models. Furthermore, the implementation of RARR requires only a handful of training examples, a large language model, and standard web search.

translated by 谷歌翻译

Efficient Long Sequential User Data Modeling for Click-Through Rate Prediction

Qiwei Chen , Yue Xu , Changhua Pei , Shanshan Lv , Tao Zhuang , Junfeng Ge

分类：机器学习

2022-09-25

关于点击率（CTR）预测的最新研究通过对更长的用户行为序列进行建模，已达到新的水平。除其他外，两阶段的方法是用于工业应用的最先进的解决方案（SOTA）。两阶段方法首先训练检索模型，以事先截断长行为序列，然后使用截短序列训练CTR模型。但是，检索模型和CTR模型是分别训练的。因此，CTR模型中检索到的子序列不准确，它降低了最终性能。在本文中，我们提出了一个端到端范式来建模长行为序列，与现有模型相比，该序列能够实现卓越的性能以及出色的成本效益。我们的贡献是三倍：首先，我们提出了一个名为ETA-NET的基于哈希的有效目标（TA）网络，以基于低成本的位置操作来启用端到端的用户行为检索。提出的ETA-NET可以通过顺序数据建模的数量级来降低标准TA的复杂性。其次，我们建议将通用系统体系结构作为一种可行的解决方案，用于在工业系统上部署ETA-NET。特别是，与SOTA两阶段方法相比，ETA-NET已部署在TAOBAO的推荐系统上，并在CTR上带来了1.8％的升降机和3.1％的升降机（GMV）。第三，我们在离线数据集和在线A/B测试上进行了广泛的实验。结果证明，在CTR预测性能和在线成本效益方面，所提出的模型大大优于现有的CTR模型。 ETA-NET现在为TAOBAO的主要流量提供服务，每天为数亿用户提供服务。

translated by 谷歌翻译

Grouped Adaptive Loss Weighting for Person Search

Yanling Tian , Di Chen , Yunan Liu , Shanshan Zhang , Jian Yang

分类：计算机视觉

2022-09-23

人搜索是多个子任务的集成任务，例如前景/背景分类，边界框回归和人员重新识别。因此，人搜索是一个典型的多任务学习问题，尤其是在以端到端方式解决时。最近，一些作品通过利用各种辅助信息，例如人关节关键点，身体部位位置，属性等，这带来了更多的任务并使人搜索模型更加复杂。每个任务的不一致的趋同率可能会损害模型优化。一个直接的解决方案是手动为不同的任务分配不同的权重，以补偿各种融合率。但是，鉴于人搜索的特殊情况，即有大量任务，手动加权任务是不切实际的。为此，我们提出了一种分组的自适应减肥方法（GALW）方法，该方法会自动和动态地调整每个任务的权重。具体而言，我们根据其收敛率对任务进行分组。同一组中的任务共享相同的可学习权重，这是通过考虑损失不确定性动态分配的。对两个典型基准（Cuhk-Sysu and Prw）的实验结果证明了我们方法的有效性。

translated by 谷歌翻译

Revisiting Rolling Shutter Bundle Adjustment: Toward Accurate and Fast Solution

Bangyan Liao , Delin Qu , Yifei Xue , Huiqing Zhang , Yizhen Lao

分类：计算机视觉

2022-09-18

我们提出了一个健壮而快速的捆绑调整解决方案，该解决方案估计了基于滚动快门（RS）摄像头的测量值的摄像机的6多杆姿势和环境的几何形状。这解决了现有作品中的挑战，即依靠其他传感器，高帧速率视频作为输入，对摄像机运动的限制性假设，读出方向和效率低下。为此，我们首先研究了标准化对图像点对RSBA性能的影响，并在建模真正的6-DOF相机运动时显示了更好的近似值。然后，我们为视觉残差协方差提出了一个新的分析模型，该模型可用于在优化过程中标准化再投影误差，从而提高了整体准确性。更重要的是，RSBA（NW-RSBA）中归一化和协方差标准化加权的组合可以避免常见的平面退化，而无需限制拍摄方式。此外，我们根据其Jacobian Matrix和Schur补充的稀疏性提出了NW-RSBA的加速策略。广泛的合成和真实数据实验验证了拟议解决方案对最新作品的有效性和效率。我们还证明了所提出的方法可以轻松实施，并作为已完成的RSSFM和RSSLAM解决方案插入著名的GSSFM和GSSLAM系统。

translated by 谷歌翻译

Switchable Self-attention Module

Shanshan Zhong , Wushao Wen , Jinghui Qin

分类：计算机视觉

2022-09-13

注意机制在视力识别方面取得了巨大成功。许多作品致力于提高注意力机制的有效性，该机制精心设计了注意操作员的结构。这些作品需要大量实验才能在场景变化时挑选最佳设置，这会消耗大量时间和计算资源。此外，神经网络通常包含许多网络层，并且大多数研究通常使用相同的注意模块来增强不同的网络层，从而阻碍了自我发挥机制的性能的进一步改善。为了解决上述问题，我们提出了一个自我发挥的模块SEM。基于注意模块和替代注意操作员的输入信息，SEM可以自动决定选择和集成注意操作员以计算注意力图。 SEM的有效性通过广泛使用的基准数据集和流行的自我发挥网络的广泛实验来证明。

translated by 谷歌翻译

Learning Audio-Visual embedding for Wild Person Verification

Peiwen Sun , Shanshan Zhang , Zishan Liu , Yougen Yuan , Taotao Zhang , Honggang Zhang , Pengfei Hu

分类：计算机视觉

2022-09-09

已经观察到，可以从这两种方式中提取视听嵌入，以获得人验证的稳健性。但是，似乎从每个帧中生成单个话语表示的聚合器似乎并未得到很好的探索。在本文中，我们提出了一个视听网络，该网络从融合的角度考虑聚合器。我们首次在面对面验证中引入了改进的细心统计数据。然后，我们发现合并过程中的模式之间存在很强的相关性，因此提出了关节关注的合并，其中包含循环一致性以学习隐式框架间的重量。最后，将这种方式与封闭的注意机制融合在一起。所有提出的型号均在Voxceleb2开发数据集上进行培训，最佳系统分别在Voxceleb1的三个正式步道列表中获得0.18 \％，0.27 \％和0.49 \％EER，据我们所知，这是个人发布的最佳成绩确认。作为分析，生成可视化图来解释该系统如何在模态之间相互作用。

translated by 谷歌翻译

NL2GDPR: Automatically Develop GDPR Compliant Android Application Features from Natural Language

Faysal Hossain Shezan , Yingjie Lao , Minlong Peng , Xin Wang , Mingming Sun , Ping Li

分类：自然语言处理

2022-08-29

最近的隐私泄漏事件和更严格的政策法规要求公司和移动应用程序的合规标准更高。但是，此类义务还在应用程序开发人员遵守包含各种观点，活动和角色的这些法规方面面临重大挑战，尤其是对于在此问题或资源有限的小型公司和开发人员中。为了解决这些障碍，我们开发了一个自动工具NL2GDPR，该工具可以从开发人员的自然语言描述中制定策略，同时还可以确保该应用程序的功能符合通用数据保护法规（GDPR）。 NL2GDPR是通过利用由百度认知计算实验室开发的信息提取工具OIA（开放信息注释）开发的。核心，NL2GDPR是一个以隐私为中心的信息提取模型，附有GDPR策略查找器和策略生成器。我们进行一项全面的研究，以掌握提取以隐私为中心的信息和制定隐私政策的挑战，同时利用针对此特定任务的优化。借助NL2GDPR，我们可以在正确识别与个人数据存储，过程和共享类型相关的GDPR策略方面获得92.9％，95.2％和98.4％的精度。据我们所知，NL2GDPR是第一个允许开发人员自动生成GDPR策略的工具，只需要输入自然语言来描述应用程序功能。请注意，其他非GDPR相关功能可能与生成的功能集成在一起，以构建复杂的应用程序。

translated by 谷歌翻译